مجموع نظرات: ۰

سه‌شنبه ۴ اردیبهشت ۱۴۰۳ - ۰۷:۰۴

۱ نفر

این هوش مصنوعی روی دست مدل های دیگر بلند می شود

شرکت تحقیقاتی مایکروسافت آسیا یک مدل هوش مصنوعی ارائه کرده است که می تواند ویدیوهای واقعی از یک تصویر ثابت و یک آهنگ صوتی تولید کند. اما سئوال اینجاست با پیشرفت سریع هوش مصنوعی چگونه می توانیم از اینجا به بعد به آنچه آنلاین می بینیم و می شنویم اعتماد کنیم؟

به گزارش همشهری آنلاین به نقل از نیواطلس، سیستم‌های هوش مصنوعی در چند سال گذشته بسیاری از امور روزانه را برای ما ساده کرده اند اما در حال حاضر بسیاری از مردم نگران این هستند که زودتر از موعد به مرتع برده شوند و الگوریتم‌ها جایگزین آن‌ها شوند.

در یکی دو سال اخیر شاهد گجت های هوشمند نسبتا محدودی بوده ایم که به دستیارهای قدرتمند روزمره و ابزارهای بهره وری حیاتی تبدیل شده اند. حتی مدل هایی وجود دارند که می توانند جلوه های صوتی واقعی را برای کلیپ های ویدیویی بی صدا ایجاد کنند و فیلم های خیره کننده از پیام های متنی بسازند. VASA-۱ متعلق به مایکروسافت جهش بزرگ دیگری به نظر می رسد.

پس از آموزش مدل بر روی فیلمی از حدود ۶هزار چهره واقعی در حال صحبت از مجموعه داده VoxCeleb۲، این فناوری قادر به تولید ویدیوی واقعی ترسناک است که در آن سوژه جدید متحرک نه تنها قادر به همگام سازی دقیق لب با یک آهنگ صوتی ارائه شده است، بلکه حالات مختلف صورت و حرکات طبیعی سر نیز منطبق بر واقعیت است.

بیشتر بخوانید:

تحصیل در خارج، خدمت به داخل | حمایت از نخبگان و پژوهشگران ایرانی خارج از کشور

شاید این مدل شباهت زیادی به مدل هوش مصنوعی Audio۲Video از مؤسسه رایانه‌های هوشمند علی‌بابا باشد که چند ماه پیش ظاهر شد، اما مدل مایکروسافت واقعی‌تر و دقیق‌تر است. طبق گزارش‌ها، VASA-۱ قادر به تولید ویدیوهای همگام‌سازی شده با رزولوشن ۵۱۲x۵۱۲ پیکسل با سرعت ۴۰ فریم در ثانیه، با تاخیر بسیار کم است.